当前位置: 首页 > 期刊 > 《遗传学报》 > 2000年第1期
编号:10257830
中国人群的等位基因地理分布图
http://www.100md.com 《遗传学报》 2000年第1期
     作者:肖春杰 L L Cavalli-Sforza E Minch 杜若甫

    单位:肖春杰 杜若甫(中国科学院遗传研究所,北京 100101);L L Cavalli-Sforza(Stanford Universty,Stanford,CA94305,USA);E Minch(Stanford Universty,Stanford,CA94305,USA)

    关键词:基因频率;地理分布图;中国人群

    遗传学报000101

    摘要:发表了我国首批绘制的人类基因地理分布图,包括12个等位基因,即ABO系统的IB,IO,MNS系统的m,Rh-D,HLA系统的A1与A11,人体免疫球蛋白的Gm1;21与Gm1,3;5,AK1,G6PD缺陷型,以及PTC味盲基因。这些基因地理分布图不仅显示了等位基因的地理分布状况,也可用于研究某些等位基因的起源与扩散、基因流动以及某些环境因子通过选择对某些等位基因频率的影响。
, http://www.100md.com
    中图分类号:Q987 文献标识码:A

    文章编号:0379-4172(2000)01-0001-0006

    Geographic Distribution Maps of Human Genes in China

    XIAO Chun-Jie,DU Ruo-Fu

    (Institute of Genetics,Chinese Academy of Sciences,Beijing 100101,China)

    L L Cavalli-Sforza,E Minch

    (Stanford University,Stanford,CA94305,USA)
, 百拇医药
    Abstract:The first set of geographic distribution maps of human gene in China are published,including 12 alleles:IB and IO of ABO system,m of MNS system,P1,Rh-D,A1 and A11 of HLA system,Gm1;21 and Gm1,3;5 of immunoglobulin,AK1,defficient typeof G6PD,and PTC test blindness gene t.These maps not only show the geographic distribution of alleles,but also can be used to study the origin and dispersal of some alleles,gene flow,and the effect of some selective factors on gene frequencies.
, http://www.100md.com
    Key words:gene frequency;geographic distribution map;Chinese populations

    某一基因座的某一等位基因在某一地区范围内的人群中的分布,一般是不均匀的,有的地方频率高,有的地方频率低。

    等位基因地理分布图就是某一基因座上的某一等位基因在一定地区的人群中的频率分布地图。一般是以一条条平滑的等值线在地图上表示频率的分布区的边界,而且往往还以不同的灰度来标记不同频率的分布区。

    造成单个基因在地理上分布不均匀的原因是多方面的。(1)基因流动,如入侵或和平迁徙,这是大规模的基因流动,但也可以是长时间内通过零星的短距离迁居、婚嫁等,缓慢地扩散、渗透;(2)自然选择:由于某些自然条件的差异及与此有关的疾病的流行等,产生自然选择,使带有某一等位基因的个体产生更多(或更少)的后代,于是使该等位基因在该人群中增多(或减少);(3)由于随机漂变及隔离所造成的某些等位基因频率与母群体不同;(4)突变,产生某些新的等位基因,如果是有利突变,则通过自然选择逐渐增加其频率,不利突变则被淘汰;如果是中性的,或者随机地淘汰,或者有时也有机会通过漂变及隔离而长期存在。
, 百拇医药
    因此,研究单个等位基因在地理上的分布,绘制等位基因地理分布图,可以使人们了解小至一个地区范围内、大至全世界某一等位基因的分布状况,通过分析,以了解其起源、与人口迁移及自然选择的关系,进一步还可以分析与选择因子(包括疾病等)的具体关系。

    自1980年以来,我国已陆续发表了我国人群中的基因频率的大量资料,因此,目前已具备条件对我国人群中某些基因的地理分布绘制地图。

    1 材料和方法

    从国内、外书刊中,收集我国人群的基因频率数据,经x2检测后,剔除不符合Hardy Winberg分布的数据。在合用的数据中,如同一地区在同一地点有两套以上的数据,便用加权法取其平均值备用。本文中各等位基因频率数据的套数(一个民族、一个地点、一个基因座的基因频率为一套数据)都是经过x2检测和同一地点数据合并后的值。作图大致步骤[1]如下。
, http://www.100md.com
    1.1 网络化 采用墨卡托投影法(Mercator projection)按经纬度将中国地图网络化,形成一个矩形图。由于海南和台湾离大陆较近且数据较多,所以将大陆网络化延伸到这两个地方。

    1.2 输入 按经纬度输入中国人群的基因频率。

    1.3 插值 由于基因频率数据的地理分布极其不均匀,一些地方的数据较多,而另一些地区的数据较少或甚至缺乏,因此在数据没有或较少的地方就需要插入数值。具体步骤如下[2]。(1)计算每一观察点的期望值:根据邻近数据点的基因频率,采用Shepard公式[3]进行加权,计算每一个观察点的期望基因频率。为了获得根据尽可能多的点得出的期望值,计算从离它最近的3个数据点开始逐渐向远点推进,每增加一个邻位点,就计算一次2值,直到观察值与期望值差异显著为止。计算时把数据点的样本大小考虑在内,即用加权法进行。在计算下一个观察点的期望值时,仍用其邻近观察点原来的观察值进行计算,直到全部观察点都得出期望值为止。(2)给每个网络结点(node)赋值:根据期望基因频率来计算网络每一结点的期望值。先建立一个Voronoi网络,每个Voronoi多边形中仅有一个数据点,而且网络的每一边线是两个数据点间的中线。根据多边形中数据点的期望值和与之邻接的所有多边形中的数据点的期望值,用上述计算每一观察点期望值相同的方法对网络的结点赋值。计算时用的也是加权法,其加权值与样本大小成正比而与邻位点间距离的平方成反比。直至网络的每个结点都被赋值为止。
, http://www.100md.com
    1.4平滑化 如果第1次网络结点赋值的结果,所得到的结点数和原观察点数之和还太小,则进行第2次网络化,把第1次网络结点赋值所得的期望值和原观察点都网在Voronoi多边形中,每个多边形内仍只有一个数据点,然后再给网络的全部结点赋值一次,直到已赋值的点的密度达到作图要求为止。最后用二维移动平均法(Bidimensional moving averages)画出等值线。

    1.5 图象处理 用灰度表示基因频率分布地图中基因频率的梯度,绘制出各个等位基因频率分布图。所有计算和绘图均在美国斯坦福大学医学院遗传学系L.L.Cavalli朣forza实验室中完成,所用的是该实验室的Genography软件[4]

    2 结果与分析

    我们一共绘制了38个基因座上130个等位基因(或单体型)在中国的地理分布图。其中,耵聍干型基因的地理分布图已发表[5]。由于篇幅有限,我们仅选其中基因频率数据点较多、地理分布规律最为明显的9个基因座上12个等位基因的地理分布图在此发表,并稍加讨论。
, 百拇医药
    2.1 ABO血型系统 本基因座的基因频率调查得最早,数据也最多。至1995年,我国除拉祜、布朗、门巴、珞巴等4个民族尚无ABO血型的资料外,其余52个民族都已有基因 频率报道。经整理后少数民族和汉族合在一起共有214套数据。IB基因在中国总的说来是北部高、南部低,频率最低的是台湾、福建、广东、江西、湖南等地。IO基因则是南方高,东北最北有一个角也高,最低的是新疆(图1)。

    图1 中国人群中ABO系统的IB与IO,MNS系统的m,Rh-D,P1,HLA系统的A1等等位基因的地理分布图

    Fig.1 Geographic distribution of IB and IO of ABO system,m of MNS system,Rh-D,P1,and A1 fo HLA system in China
, 百拇医药
    2.2 MN血型系统 我国已有41个少数民族的67个人群及汉族26个人群的数据,经检测与归并后共有72个点的数据。基因频率m在我国的梯度变化十分明显,而且变化幅 度很大,达0.43。基因频率m是从辽宁、河北、山东、江苏逐渐向西南方向递升,但向最东北角也略有升高,这是因为鄂伦春族与鄂温克族中m占多数。全国基因频率m最高地区是云南省(图1)。

    2.3 Rh血型系统 Rh血型系统各等位基因中,以Rh朌检查的人数最多。Rh朌基因频率在全国绝大部地区均在0.905以上,尤其在福建、广东、海南、台湾、四川、云南、汉中及黑龙江中北部、西藏等地达0.95以上。而Rh朌基因频率在我国西北部地区则逐渐降低,在新疆西部最低,在0.762以下。这是因为维吾尔、哈萨克、乌孜别克、柯尔克孜等族中,Rh(D)阴性率极高的白种人的血缘占一定成分。白种人中Rh(D)阴性率达15%左右,即Rh朌基因频率仅0.6左右(图1)。

    2.4 P血型系统 收集到14个地区中15个汉族人群和36个少数民族中49个人群的P血型的调查结果。将同一调查地点的汉族与少数民族合并后,有47个数据点。从图1可明显看出P1基因频率变化幅度很大,从0.492~0.443,直至0.049~0.000,变化相当有规律,在新疆北部最高,向东南方向逐渐降低,在福建、广东、广西,P1基因频率在0.098以下,而至海南岛更达0.049的最低值(图1)。
, 百拇医药
    2.5 人类白细胞抗原(HLA) 收集到汉族25个人群和24个少数民族38个人群的HLA A与B的基因频率,将同一地点的基因频率合并后有57个取样点的基因频率数据。

    A1基因的频率由北向南递减。在新疆、内蒙北部频率较高,而到长江以南,基本上均在0.026以下(图1)。其他抗原,如A3、A30、B7、B8、B37、B43等的频率也呈由北向南逐渐下降的趋势(图略)。

    A11基因的频率与A1基因相反,由北往南递增,尤以新疆及东北地区最低,在0.1以下,在湖南西部较高,达0.344,而云南的西南部最高,达0.4以上(图2)。Bw46及B60基因频率也由北向南越来越高(图略)。
, 百拇医药
    图2 中国人群中HLA系统的A11,人体免疫球蛋白的Gm1;21

    与Gm1,3;5,AK1,G6PD缺陷型及PTC味盲基因的地理分布图

    Fig.2 Geographic distribution of A11 fo HLA system,Gm1;21 and

    Gm1,3;5 fo immunoglobulin AK1,defficient type of G6PD and PTC test blindness gene t in China

    2.6 人体免疫球蛋白 在人体免疫球蛋白的单体型频率方面,至1995年已报道了44个不同地区的汉族人群和23个少数民族的29个人群的数据,经合并同一地点的频率后,有72个地点的Gm单倍型频率数据可供绘图之用。
, http://www.100md.com
    Gm1;21单体型频率是北高南低,频率变化相当大。频率最低是广东东部、广西南部、湖南南部和海南,小于0.076,最高是东北地区和西藏,达0.4以上。在新疆,尤其是其北部,频率又略有降低,为0.3左右(图2)。

    Gm1,3;5单体型频率的梯度变化也十分明显,它在海南、广东、广西及湖南南部的频率最高,达0.624以上,向北逐渐降低,至新疆及东北北部达最低值0.122~0.038。其变化幅度是非常大的(图2)。

    2.7 腺苷酸激酶(AK) 自1983年第1篇AK基因频率的报道以来,至1995年已有11个汉族人群和32个少数民族的47个人群的数据,经合并同一地点的数据后,全国共有47个地点的数据。从图2可以看出,我国绝大部分地区的AK1基因频率是1,仅西北地区有所降低,至新疆西部最低,为0.948~0.942。其变化幅度在全国并不大(图2)。

, 百拇医药     2.8 葡萄糖-6-磷酸脱氢酶(G6PD) 可以用于绘图的数据共来自58个地点,不过其分布不算很均匀,集中在广东、云南、广西、贵州、海南、四川等省、自治区。这是因为G6PD缺陷型主要分布在疟疾高发区,因此自然也对这些地区进行的调查较多,对宁夏、河南也进 行过调查。从图2可以看到G6PD缺陷型在我国大部分地区接近零,在海南、珠江三角洲较高,而以四川、云南西部最高。缺陷型的地理分布与疟疾的发生率的地理分布是一致的,再一次证明两者的密切关系,即G6PD缺陷型杂合子对疟疾的抗性比正常型纯合子的强(图2)。

    2.9 苯硫脲(PTC)味觉 自1965年发表第1篇PTC味盲率的调查报告以来,至1995 年已调查了14个省、市、自治区的汉族人群与33个少数民族的54个人群的PTC味盲率。经合并同一地点数据,全国共有46个地点的味盲基因频率。从图2可以看出,PTC味盲基因(t)的频率在我国分布有明显规律,即华南地区的味盲基因频率最低,而西北地区、尤其新疆北部地区的味盲基因频率最高。其差异幅度也相当大(图2)。我们知道,高加索人种中味盲基因频率高,因此PTC味盲基因频率的分布充分说明,在我国范围内,高加索人种的血缘由西北至东南越来越少。
, 百拇医药
    参考文献

    [1]Piazza A et al.The making and testing of geographic gene-frequency maps.Biometrics,1981,37(4):635~659.

    [2]Piazza A,P Menozzi.Geographic variation in human gene frequencies.In J.Felsenstein (ed.) Numerical Taxonomy Proceeding of a NATO Advanced Study Institute,Berlin:Springer 1983,444~450.

    [3]Shepard D.A two-dimensional interpolation function for irregularly spaced data.In Proceedings of the 1968 ACM National Conference.Princeton,N.J.:Brandon Systems.1968,517~524.

    [4]Cavalli-Sforza L L et al.The History and Geography of Human Genes.1994,Princeton,42~50.

    [5]杜若甫等.中国17个人群中的耵聍基因频率及干型基因的地理分布图.遗传,1997,19(6):21~24., http://www.100md.com